Segmentation non supervisée : le cas du mandarin

نویسنده

  • Pierre Magistry
چکیده

Unsupervized Word Segmentation In this paper, we present an unsupervised segmentation system tested on Mandarine Chinese. Following Harris’s Hypothesis in Kempe (1999) and Tanaka-Ishii (2005) reformulation, we base our work on the Variation of Branching Entropy. We improve on (Jin et Tanaka-Ishii, 2006) by adding normalization and Viterbi-decoding. This enables us to remove most of the thresholds and parameters from their model and to reach near state-of-the-art results (Wang et al., 2011) with a simpler system. We provide evaluation on different corpora available from the Segmentation bake-off II (Emerson, 2005) and define a more precise topline for the task using cross-trained supervised system available off-the-shelf (Zhang et Clark, 2010; Zhao et Kit, 2008; Huang et Zhao, 2007) MOTS-CLÉS : Apprentissage non-supervisé, segmentation, chinois, mandarin.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Causes of Increased Intracranial Blood Flow Rate (Angiographic Study)

"Etude etiologique de la circulation ra.pide iutra-rena-le"  Le but de l'angiographle renale n'est pas '.seu­lement le controle anatomique de l'organe, une etude physiologique (Hemodynamique) doit toujours etre prise en consideration.  Le temps normal de la circulation intra-renale selon les differents auteurs varie entre 6 a 8, 8 a 10 et 10 a 12 secondes, mais le temps moyen est de 6 a 8 seco...

متن کامل

بایسته‌های رضایت و برائت و تأثیر آن بر سقوط مسؤولیت پزشکی

La recherche du consentement du patient est un ancien principe, à la fois juridique et éthique, qui se fonde sur le principe du respect de l’intégrité corporelle du patient. Le respect de cette exigence par le corps médical a varié au cours des temps, comme l’illustre l’évolution récente. Le consentement du patient ou de ...

متن کامل

Segmentation d'images par modèle de mélange conjoint non gaussien

RÉSUMÉ. L’idée à l’origine du modèle de mélange conjoint (MMConjoint) est de classer simultanément deux ensembles d’observations en introduisant un a priori conjoint entre les deux classifications et un lien statistique entre les deux observations. Nous étudions en particulier le cas de mélanges gaussiens et le cas de mélanges paramétriques non gaussiens construits à partir de copules et de mar...

متن کامل

Study of Pneumothorax in Children: A Case Report

PNEUllOTHORAX DE L'ENFANT  Presentation de 17 cas. Revue de la litterature Par: Marandian M.H., Momenzadhe A., Wali­zade G., Kabiri M., A'skari H. et Movasat M.  Durant deux ans et demi, 17 cas de pneumo­thorax ont ete observes dans le service de Pedia­trie de !'Hospital Pahlavi de l'Univm-site de Teheran:  1)9 de ces malades etaient ages de moins d'un an. Le malade le plus age atteint de pn...

متن کامل

Neurological complications during leukemia and lymphosarcoma in children

Dans un service de 36 lits de medicine in­fantile une periode de 18 mois, 33 enfants furent hospitalises pour une affection hematologique maligne: 21 cas de leucemie aigi.ie, 1 cas de leu­cemie myeloide chronique, 2 cas de lymphomes malins, 9 cas de Hodgkin aux differents stades evolutifs.  Aucune complication neurologique ne fut observe chez les malades attaints de Hodgkin. Ia moitie des enfa...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012